iT邦幫忙

第 11 屆 iThome 鐵人賽

DAY 21
0
Google Developers Machine Learning

初心者的GDC攻略系列 第 21

Day21: 數字 x 編碼 x 解讀

  • 分享至 

  • xImage
  •  

都是數字,有何不同

在收集資料的時候,要注意類別的選擇。
對於數值型(numerical)資料就要請大家注意有序型(ordinal)類別型(nominal)的差別。
所謂
ordinal
隱含著順序(order),可以看做是符合三一律的數,又可以分為連續型(continuous)或是離散型(discrete)。
連續型變數可以有效讓使用者看出離散程度差異與待預測的對象之關聯。
離散型變數仍保有序列差異的特性,但是容易出現資料間的斷層,解讀開始出現困難。
nominal本義為名義上的,代表其意義更接近dummy,可用來告訴使用者兩者或不同類別之間不同,要如何說明不同,就不在說明的範圍了。

舉例來說:

  1. 小明有3顆蘋果,曉華切了其中一顆的一半,所以曉華有0.5顆蘋果,小明有2.5顆蘋果。小明擁有的蘋果比曉華多2顆。
  2. 滑來世有5千萬印尼盾,德克有100美金,誰有比較多錢?

編碼是什麼

編碼的功用,可以想成用來將不適合用來當成特徵的nominal變數轉換成有意義的有序型變數。
以常用的框架來說,one-hot encoding/embedding是常用的編碼模式。
大部分都有一個特點,就是維度擴增。
利用更高維度的表示法,來說明不同觀測資料的關係。

可以比較一下支援向量機(Support Vector Machine, SVM)

機器學習與統計解讀

https://ithelp.ithome.com.tw/upload/images/20191007/20120151Ed6TdnAx6z.png
這是課程中解釋的一張圖,說明統計與機器學習對於資料判讀的差異特性。

我想,重點就在資料數量的多寡吧。


上一篇
Day20: 特徵 x 選擇 x 關聯
下一篇
Day22: 預處理 x 建特徵 x 緩結論
系列文
初心者的GDC攻略30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言